[2024年12月4日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
AWS re:Invent 2024が2024年12月2日~6日で開催中
AWSの年次イベントであるAWS re:Invent 2024が、2024年12月2日~6日で開催中です。
発表された新機能の中では、SageMaker Lakehouse、S3 Tablesあたりが特に気になっております。
弊社からも多くの社員が現地参戦しており多くのブログが投稿されています、こちらもぜひ併せてご覧ください。
Open Source Data Summit 2024が2024年10月に開催
少し前なのですが、2024年10月にOpen Source Data Summit 2024が開催されました。
私も初めて知ったのですが、カンファレンス名の通りOSSの各製品やアーキテクチャに関してのセッションが多いようです。下記のサイトから各セッションの録画を見ることも出来ます。
こちらのカンファレンスについて、Onehouse社もレポートを出していました。
高速と噂される SQL リンターツール「sqruff」を実際に試してみた
弊社エンジニアによる記事ですが、最近日本のデータエンジニア間でも少し話題となったsqruffを試してみた記事を投稿しています。
sqlfluffとの動作速度比較なども行っていますので、参考になると思います!ぜひご覧ください。
Data Extract/Load
全般
dltHub社がまとめた各ツールの比較記事
dltHub社より、データロードに使用される各SaaS/OSSを比較した記事が出ていました。
dltHub社が作成している記事というところに注意が必要ですが、各ツールの違いをざっと知るには参考になると思います。
Data Warehouse/Data Lakehouse
Snowflake
Snowflake社がAnthropic社と戦略的パートナーシップを締結
Snowflake社がAnthropic社と戦略的パートナーシップを締結しました。
これにより、近い内にSnowflake内でAnthropic社が提供するLLMであるClaudeを使えるようになるはずです!
SnowflakeのMFAの強制に関する最新情報
Snowflake社の公式ブログより、MFAの強制に関する最新情報が出ていました。
今後、下記のような流れでパスワード認証を行うユーザーに対してMFAを強制していくとのことです。
- 2025年4月:MFAを強制するauthentication policyが適用される(custom authentication policyで回避可能)
- 2025年8月:custom authentication policyでの回避が不可になり、
TYPE=PERSON
でパスワード認証を行うユーザーはMFAを強制される - 2025年11月:
TYPE=LEGACY_SERVICE
のユーザーはTYPE=SERVICE
に移行予定で、すべてのユーザーがパスワード認証の場合はMFAを強制される
terraform-provider-snowflakeのv0.99.0がリリースされ、v1.0.0もまもなくリリース予定
11月16日にterraform-provider-snowflakeのv0.99.0がリリースされました。
また、ロードマップ情報を見ると、まもなくv1をリリース予定とも記載がされています。(これで破壊的変更がなくなるとよのですが…)
このアップデートに関連して、terraform-provider-snowflakeのバージョンアップ対応を安全に行うための手順をまとめた記事が出ていました。(ありがとうございます!!)
こちらの記事も今後のバージョンアップの際にはぜひ参考にしてみてください。
EXECUTE IMMEDIATE、Jinja Templates、Git Integrationを用いたSnowflake内部での動的なSQL生成
Mediumより、EXECUTE IMMEDIATE、Jinja Templates、Git Integrationを用いたSnowflake内部での動的なSQL生成方法についてまとめた記事が出ていました。
この記事ではdevとprodを環境変数ベースで切り替える方法についてまとめられています。
Data Transform
dbt
Warner Brothers Discovery社がdbt Coreからdbt Cloudに移行した理由
dbt Labs社の公式ブログより、Warner Brothers Discovery社がdbt Coreからdbt Cloudに移行した理由についてまとめた記事が出ていました。(Coalesce 2024のセッションのまとめ記事です。)
dbt Coreでの課題として、以下を挙げていました。
- ジョブのパフォーマンスが急に悪くなることがありこれが予測不能で、コストが増加することがあった
- インフラストラクチャの管理とスケーリングの実装が困難だった
- データメッシュアーキテクチャのサポートがなかったため、エンジニアリングチームに依存せざるを得なかった
dbt Cloudに移行したことで得られたメリットとして、以下を挙げていました。
- dbt Meshの採用により、大規模なモデル群をより小さな粒度に分割してまとめ、プロジェクト間の依存関係を管理できるようになった
- エンジニアリングチームのサポートなしで、各チームが自立してプロジェクトを管理できるようになった
- dbt Cloudのスケジューラー、Encironment、を使用して、開発者とアナリストのオンボーディングプロセスを改善できた
- dbt CloudのWebhookを使用してSlack通知を有効化し、エンジニアリングチームが問題に迅速に対応できるようになった
SDF
Rustで書かれた高速なSQL LinterをSDFの1機能としてリリース ※プレビュー
まだプレビューの機能ですが、Rustで書かれた高速なSQL LinterをSDFの1機能としてリリースしました。
Data Catalog
CastorDoc
NotionとConfluenceのコンテンツをCastorDocに同期できる機能をリリース
CastorDocの新機能として、NotionとConfluenceのコンテンツをCastorDocに同期できる機能をリリースしました。
データカタログに関連するドキュメントも通常業務で利用しているNotionやConfluenceで書きたいニーズはあると思うので、これは嬉しいですね!
Data Quality・Data Observability
Elementary
Data Healthに関する考え方とdbt×ElementaryでのScoreの測定・活用方法
Elementary社のブログより、Data Health(データ健全性)とそのScoreをdbt×Elementaryでどのように測定して活用するかをまとめた記事が出ていました。
Data Orchestration
Orchestra
Orchestra内で直接Pythonの処理を実行できるように
Orchestraの新機能として、Orchestraのタスクで直接Pythonの処理を実行できるようになりました。
データ自体を処理するような重めの処理は厳しそうですが、外部ツールをPython経由で呼び出す際など、柔軟にタスクを組みたい時に活用できそうです。